#modelos visión

De Segmentos a Escenas: Comprensión Temporal en Conducción Autónoma

Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.

2026-06-02 · 1 min

VLM4VLA: Revisando la competencia de los VLM en robótica

VLM4VLA revela que la capacidad general de los VLM no garantiza un buen control robótico. Descubre las claves para elegir el modelo adecuado.

2026-06-02 · 2 min

LASER: SVD consciente de pérdida y asignación de rango para modelos VL

Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.

2026-06-02 · 2 min

Riesgo de vinculación cruzada en modelos clínicos de visión-lenguaje

Los modelos de IA clínica pueden reidentificar pacientes al vincular radiografías con informes. Descubre cómo la privacidad diferencial reduce este riesgo.

2026-06-02 · 2 min

Más allá de texto:ComProScanner integra visión-lenguaje para figuras científicas

Descubre cómo ComProScanner extrae datos de materiales de figuras científicas con precisión del 97%. Automatiza tu investigación.

2026-06-02 · 3 min

STaR-KV: Compresión de caché KV en modelos de lenguaje visual para GUI

STaR-KV comprime la caché KV en modelos GUI sin entrenamiento, reduciendo memoria GPU un 40% sin penalizar precisión. Descubre cómo.

2026-06-02 · 2 min

Ver no es saber: cuándo los VLMs deberían abstenerse

¿Los VLMs saben cuándo abstenerse? Un estudio revela que fallan en preguntas espaciales con oclusión o ambigüedad, respondiendo con exceso de confianza. Descubre por qué.

2026-06-01 · 2 min

Calibración de atención cross-modal para reducir alucinaciones en LVLM

CMAC: un método sin entrenamiento que calibra la atención cross-modal para mitigar alucinaciones en LVLMs. Corrige sesgos y mejora la consistencia visual-textual.

2026-06-01 · 3 min

Adaptador Variacional para Representación de Similitud Multimodal

Descubre cómo el Adaptador Variacional mejora la similitud multimodal resolviendo falsos negativos y potenciando la generalización en modelos de visión-lenguaje

2026-06-01 · 2 min

Colapso de plantillas en informes de TC 3D: medición y mitigación

El colapso de plantillas limita la detección de hallazgos críticos en TC 3D. Conoce CLarGen, el método que separa detección de síntesis para informes más precisos.

2026-06-01 · 2 min

FOCUS: Cómo localizar objetos en contexto sin supervisión de categorías

Aprende cómo FOCUS localiza objetos en contexto sin supervisión de categorías, usando apoyo visual y optimización por refuerzo. Supera modelos de hasta 72B parámetros.

2026-06-01 · 2 min

Más allá de la clasificación: enrutamiento dinámico en recuperación multimodal

Descubre cómo el enrutamiento dinámico de adaptadores mejora la recuperación multimodal continua, superando métodos tradicionales. Ideal para IA y visión.

2026-06-01 · 2 min

CrystalXRD-Bench: Evaluación de modelos de visión-lenguaje para la indexación de picos de XRD en diversos materiales cristalinos

2026-05-30 · 1 min

Evaluación comparativa de modelos grandes de visión-lenguaje en CFMME: Un conjunto de datos completo de evaluación multimodal financiera china

Comparativa de modelos visión-lenguaje en CFMME, dataset multimodal financiero chino. Análisis de rendimiento y aplicaciones en finanzas.

2026-05-29 · 2 min

Revelando el cuello de botella del conteo visual en modelos de visión-lenguaje

Análisis del cuello de botella del conteo visual en modelos de visión-lenguaje: limitaciones actuales y perspectivas para mejorar la precisión en tareas numéricas.

2026-05-29 · 2 min

FedMPT: Ajuste de Prompts Multietiqueta Federado de Modelos de Visión-Lenguaje

2026-05-29 · 2 min